2024-12-12 08:39:55.AIbase.
P-MMEval: Conjunto de testes de código aberto para avaliação de modelos de linguagem multilíngues, desenvolvido em conjunto pela Tongyi Qianwen e pela comunidade ModelScope
2024-12-05 14:45:53.AIbase.
ByteDance lança novo benchmark de avaliação de modelos de código de código aberto: "FullStack Bench"
2024-09-05 08:43:35.AIbase.
O Instituto de Inteligência Artificial de Pequim (BAAI) lança o FlagEval: Arena de Batalha para Grandes Modelos, incluindo avaliação de modelos de vídeo gerados por texto
2024-03-07 03:52:56.AIbase.
Empresa de avaliação de modelos de IA destaca problemas graves de violação de direitos autorais do GPT-4; engenheiros da Microsoft temem a função de geração de imagens
2023-11-02 15:21:41.AIbase.
Grupo Ant Financial lança benchmark de avaliação de modelos grandes para a área de DevOps
2023-09-25 09:54:21.AIbase.
Investigação sobre a desordem na avaliação de modelos grandes: o tamanho do parâmetro não é tudo
2023-08-18 10:04:45.AIbase.